TomoDRGN: 从冷冻电子显微镜亚断层中学习结构异质性
加星标,再也不怕错过更新!方法见文末动图。
大型动态分子复合物在细胞中扮演着各种重要的功能角色,这些复合物的构象灵活性和组成多样性,使它们能够响应各种细胞压力和刺激。结构生物学一直在尝试通过可视化这些复杂结构来了解它们的功能机理,并利用诸如冷冻电子显微镜(cryo-EM)和冷冻电子断层扫描(cryo-ET)等技术高分辨率地观察这些复合物。与典型要求将粒子从细胞中分离出来并前仍缺少一种无偏见且表达能力强的工具来分析cryo-ET中原位结构的异质性。
鉴于目前的挑战,3月的Nature Methods上介绍了一个从cryo-ET数据集学习每个粒子的构象和组成异质性的连续生成模型的深度学习框架,题为“Learning structural heterogeneity from cryo-electron sub-tomograms with tomoDRGN”。本文作者在此之前已开发了一个名为cryoDRGN的从cryo-EM数据中重构粒子不同构象的深度学习模型,并广为人知。而tomoDRGN则继承了cryoDRGN的许多总体设计、处理和分析理念。作为输入,tomoDRGN使用2D粒子投影图像和来自上游STA工具的相应元数据。然后,它学习同时将每个粒子嵌入到一个连续的低维潜在空间中,并重建相应的独特3D体积。
模型设计
TomoDRGN旨在有效训练一个神经网络,能够(1)将一系列粒子嵌入到一个由结构异质性信息引导的学习到的连续的低维潜在空间中,这些粒子每个都通过在不同阶段倾斜角度收集的多个图像表示;(2)使用这些嵌入为每个粒子生成一个3D体积。为了处理倾斜序列数据,作者采用了变分自编码器(VAE)框架,并构建了一个专用的双部分编码器网络,输入到一个基于坐标的解码器网络中。对于每个粒子,编码器网络首先使用编码器A作为“特征提取器”,以与cryoDRGN的编码器网络直接类似的方式为每个倾斜图像生成一个独特的中间嵌入。然后编码器B将这些中间嵌入集成到粒子的单个潜在嵌入中。解码器网络配备了这个集成的潜在嵌入和一个特征化的体素坐标来重建该坐标处的信号。与cryoDRGN一样,这些操作在傅立叶空间中执行。通过这种设计,作者预期通过在多个坐标处重复评估解码器网络,将允许对最初提供给编码器的倾斜图像集合进行栅格化重建。遵循标准的VAE,作者设计了网络,通过最小化输入和重建图像之间的重建损失以及由潜在嵌入与标准正态分布的Kullback–Leibler(KL)散度量化的潜在损失来训练网络,其中一个超参数β控制这两个损失项的相对贡献。
一旦训练完成,预期tomoDRGN网络能够对输入数据集内的结构异质性进行详细和系统的探索。例如,类似于cryoDRGN,作者预期tomoDRGN学习到的潜在空间可以直接沿任何一组潜在维度可视化,或使用如均匀流形近似和投影(UMAP)等降维技术可视化,作者经验性地发现,不同的簇通常对应于组成异质性状态,而散乱的、无特征的分布对应于连续的结构变化。然后,单独采样潜在嵌入,或者沿着潜在空间中样本稠密的路径采样,再传递给解码器以生成对应的3D体积进行直接可视化。最后,作者进一步开发了方法来隔离感兴趣的粒子子集,以便使用传统STA软件进行后续细化,作为最大化cryo-ET数据集价值的迭代方法。
TomoDRGN恢复模拟数据的结构异质性
为了评估这些架构选择的有效性,作者模拟了cryo-ET粒子堆栈,对应于四种大肠杆菌核糖体大亚基(LSU)的组装状态(B-E)并首先测试了仅使用解码器网络的能力来对类E粒子进行均质重建。这些粒子没有经过编码器训练,也没有学习到潜在空间。作者发现解码器网络能够快速收敛,在十个训练周期内复制出基准真实密度图。接下来,作者使用包含四种LSU结构类别混合的粒子堆栈训练了完整的VAE网络,以评估 TomoDRGN 对结构异质性3D体积进行嵌入和重建的能力。训练24个周期后,通过PCA和UMAP分析发现了四个潜在嵌入簇。此外,解码器网络从每个簇中心生成的体积与基准真实体积相符。作者进一步量化了每个粒子的嵌入与其基准真实体积类别之间的保真度,发现 TomoDRGN 网络能够有效地学习无监督的离散结构异质性。为了测试 TomoDRGN 对连续构象变化的建模能力,作者模拟了描述酵母线粒体ATP合酶在ATP水解驱动下的旋转和弯曲运动的一系列原子模型,并在该数据集上训练了 TomoDRGN 模型。分析了500个 TomoDRGN 生成的体积后,揭示了一个平滑且连续的轨迹,沿此轨迹采样的体积能够再现基准真实数据集中存在的复杂构象变化组合。
识别实验数据集中隐藏的结构状态
接下来,作者探讨了 TomoDRGN 在实验数据集上的表现,包括那些预期具有均匀结构的粒子,例如载脂蛋白数据集(EMPIAR-10491)。作者通过标准的 STA 方法以 C1 对称性重新处理该数据集,获得了高分辨率的共识结构以及 TomoDRGN 模型训练所需的元数据。并惊讶地观察到一个具有特征的潜在空间,其中包含三个主要结构类别:载脂蛋白粒子:约65%,呈现出良好的载脂蛋白特征;不可解释的图谱:约33%,可能对应于错误的粒子选择;含铁的铁蛋白:约2%,为一种明显的铁蛋白。TomoDRGN 成功地将载脂蛋白和铁蛋白粒子分开,并在 C1 对称性下分别对每个组进行了重新细化,复现了 TomoDRGN 识别出的结构特征。此外,经过 TomoDRGN 筛选的载脂蛋白粒子细化后,通过傅里叶壳相关(FSC)和局部密度质量检查,分辨率比原始 C1 细化的结构有所提高。
为了评估 TomoDRGN 在大型晶格粒子上的性能,作者重新处理了未成熟 HIV 衣壳(CA)数据集 EMPIAR-10164。在 C1 对称性下重建的结果清晰地重现了 CA N端域(CA-NTD)和 CA C端域(CA-CTD)层。TomoDRGN 模型在这个数据集上进行训练后,显示了一个无特征的潜在空间,其中的主要结构类别在组织和核衣壳(NC)层的密度程度上有所不同。通过进一步使用 MAVEn 对 NC 域假定位置的掩模进行分析,揭示了 NC 层中不同占据的连续体,与该域的广泛灵活性一致。在这个分辨率下,难以将 NC 层的密度归因于 NC 蛋白、核酸或二者组合,这是其他研究也注意到的挑战。然而,通过用训练有素的 TomoDRGN 模型重建所有粒子的体积,并按源断层的空间上下文排列,可以观察到具有增加 NC 层密度的 Gag 六聚体在病毒样颗粒(VLPs)内聚集。这种 VLP 级别的 NC 层组织模式可能反映了核酸货物被 NC 域邻域紧密结合的区域。
原位下探索分子间异质性
cryo-ET的一个重大优势在于其能够表征单个大分子复合体及其局部环境之间的相互作用。假设 TomoDRGN 能够在此方面表现优异,特别是当其处理包含感兴趣粒子的松散裁剪图像时,初步分析揭示了一些带有显著分子间密度的体积类别,这些密度被盒子边界截断。为评估 TomoDRGN 分析复合体间结构异质性的能力,作者提取了更大的盒子尺寸,以有效分析图像中每个核糖体的分子邻域。通过使用这些图像训练了一个新的 "分子间" TomoDRGN 模型,展示了一个有特征的潜在空间和相应多样的体积。许多结构表现为二聚体和三聚体,与之前测量的每个核糖体邻近粒子的距离和角度分布一致。详细检查显示,有些二聚体带有解析的信使RNA(mRNA)密度。在分析这些粒子时,作者还发现以前未报告的带有脂质双层额外密度的核糖体结构。通过将这些粒子映射回原始断层图,发现它们对应于细胞表面的粒子。进一步分析显示,其中的 80%(由 MAVEn 量化)带有从膜突出的柔性胞外密度。作者使用原子模型对这些密度进行刚体对接,发现它们支持 SecDF 的存在,这是 Sec 转运通道的一个亚复合体,具有相对较大的胞外球形域,由肺炎支原体编码。这一结果突出了 TomoDRGN 的迭代粒子策划和细化方法在揭示高度异质性原位数据集中隐藏的新结构的有效性。
TomoDRGN是一种用于建模cryo-ET数据中每个粒子的组成和构象异质性的神经网络框架。在设计方面,其克服了 cryoDRGN 在处理模拟数据时产生非生物学结构异质性的问题,并解决了同一粒子不同倾斜图像的潜在嵌入和体积之间变化的问题。在潜在空间建模方面,TomoDRGN 利用变分自编码器(VAE)框架,将输入投影图像映射到低维潜在空间中,然后通过解码器网络重建图像,这种设计也有效解决了伪影问题。在粒子类型方面,TomoDRGN 最适合处理大型、丰富的粒子数据集,能够分析数量从几百到几万的粒子,并在特定情况下进行深入探查。总之,TomoDRGN 提供了对 cryo-ET 数据集进行深入和灵活分析的新方法,不仅识别复杂的结构异质性,还能与其他工具形成良性循环,提高数据集整体质量,为生物学和结构生物学带来更多洞见。
供稿 | 徐艺然
责编 | 囡囡
设计 / 排版 | 可洲 雨萱
微信号:FRCBS-THU
因扫码入群人员已满,可扫码添加中心官方微信号,管理员邀请入群
原文链接
https://www.nature.com/articles/s41592-024-02210-z
精彩回顾
精彩回顾
特别提示
微信公众号又双叒叕更改推送机制了,不是星标的订阅号,收到推送内容的时间会有延迟,甚至根本无法收到最新推送!不想错过FRCBS最新资讯,快来设为星标吧!
方法超简单,只需3秒钟!
点击上方卡片
关注我们吧
THE END
我知道你“在看”哟